base <- read.csv("../Bases de datos/auto-mpg.csv")
library(modeest) # Moda
## Warning: package 'modeest' was built under R version 3.5.2
library(raster) #quantiles, coeficiente de variación
## Warning: package 'raster' was built under R version 3.5.2
library(moments)# asimetría, curtosis
## Warning: package 'moments' was built under R version 3.5.2
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.5.2

Medidas de tendencia central

Estas medidas me permiten tener un idea sobre que tan centrados se encuentran los datos.

Media aritmética

\[\bar{x}=\frac{\sum_{i=1} ^n x_i}{n}\]

mean(base$weight)
## [1] 2970.425

Mediana

Es el valor bajo el cual se encuentra el 50% de los datos.

\[P(X\leq m)=0.5\]

median(base$weight)
## [1] 2803.5

Moda

Es el valor más frecuente en el conjunto de datos.

\[p(X = M) \ \geq p(x = x_i) , \ \forall _i = 1,2,...,n\]

mfv(base$mpg)
## [1] 13

Percentil

Funciona similar a la media solo que con este valor se busca que la probabilidad o el corte pueda quedar en cualquier valor entre 0 y 1.

\[P(X \leq x_p) = p, \ p \in[0,1]\]

quantile(base$mpg)
##   0%  25%  50%  75% 100% 
##  9.0 17.5 23.0 29.0 46.6
quantile(base$mpg, c(0.2,0.6))
## 20% 60% 
##  16  25

Medidas de dispesión

Permiten evaluar cuánto queremos saber que tan desplazados están los valores con respecto a la media.

Varianza y desviación estandar

\[s^2=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\] La desviación estándar es usada con el propósito de llevar los resultados de la varianza a la escala original de los datos.

\[s = \sqrt s^2\]

var(base$displacement)
## [1] 10872.2
sd(base$displacement)
## [1] 104.2698

Coeficiente de variación

\[CV = \frac{s}{\bar{x}}*100\]

cv(base$displacement)
## [1] 53.90687

Medidas de simetría y sesgo

Asimetría de Fisher

Me da una idea hacia donde están concentrados la mayoría de los datos.

\[CA = \frac{\sum_{i=1}^n (x_i-\bar{x})^3}{n\ s^3}\] * Si la asimetría es negativa se tiene una distribución con una gran concentración de datos a la derecha de la media.

  • Si la asimetría es cero se tiene una distribución con una gra concentración de datos en la media.

  • Si la asimetría es positiva se tiene una distribución con una gran concentración de datos a la izquierda de la media.

skewness(base$mpg)
## [1] 0.4553419
ggplot(base, aes(base$mpg)) + geom_density(fill = "blue") 

Curtosis

\[C = \frac{\sum_{i=1}^n (x_i-\bar{x})^4}{n\ s^4}-3\] * Si la curtosis es negativa se tiene una distribución con una gran dispersión de los datos , con grandes colas y algo aplastada.

  • Si la curtosis es positiva se tiene una distribución con una baja dispersión de los datos , con colas pequeñas alrededor de la media.

  • Si la curtosis es cero se tiene una distribución con una estructura similar a una normal.

kurtosis(base$acceleration)
## [1] 3.399208
ggplot(base, aes(base$acceleration)) + geom_density(fill = "red")